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摘 要 : 针对 众 包 数据 处 理 中 的 质量 控制 问题 ， 提 出 了 一 种 加 权 开 近邻 投票 分 类 方法 。 该 方法 不 单单 只 是 考虑 了 某 
个 样 例 的 标记 来 返回 一 个 答案 ， 而 是 通过 综合 考虑 样 例 的 近邻 来 得 到 更 加 准确 的 答案 。 同 时 对 样 例 的 近邻 加 以 适当 
的 权重 来 进一步 提高 算法 的 性 能 ， 并 保持 了 传统 多 数 投票 分 类 的 简单 性 。 玉 近邻 投票 分 类 算法 可 以 有 效 地 解决 缺乏 
标记 的 情况 ， 通 过 对 近邻 加 以 权重 可 以 解决 不 平衡 标记 造成 的 影响 ， 从 而 使 算法 的 泛 化 性 更 强 。 通 过 各 种 场景 下 的 
实验 ， 结 果 表 明 加 权 开 近邻 投票 分 类 方法 取得 了 很 好 的 效果 。 
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Crowdsourcing data classification algorithm via K-nearest neighbor 
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Abstract: Aiming at the quality control problem in crowdsourcing data processing, this paper proposed a weighted 
K-nearest neighbor voting method. This method not only considers the mark of a certain sample to return an answer, but 
rather obtains a more accurate answer by considering the neighbors of the sample comprehensively. At the same time, it 
applies appropriate weights to the neighbors of the sample to further improve the performance of the algorithm and maintain 
the simplicity of the traditional majority vote. The K-nearest neighbor vote can effectively solve the problem of lack of 
markup. By weighting the neighbors, it can solve the influence of the unbalanced mark. And the generalization of the 
algorithm is stronger. Through experiments in various situations, the results show that the proposed weighted K-nearest 
neighbor voting method has achieved good results. 
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0 ”引言 随 着 时 间 推 移 ， 这 个 数字 仍然 在 一 步 步 向 100% 靠 近 。 可 以 
. 说 ImageNet 数据 集 打开 了 计算 机 视觉 ,模式 识别 甚至 整个 人 
随 着 人 工 智 能 时 代 的 到 来 ， 数 据 的 重要 性 已 经 不 言 而 喻 。 工 智 能 领域 的 研究 新 篇 章 ， 同 时 也 充分 证 明了 巨 量 级 的 真 委 
中 ， 并 且 影 响 世 界 的 方方面面 。 阿 里 巴巴 的 城市 大 脑 项 目 将 。 ”数据 集 对 科学 研究 的 重要 性 。 在 ImageNet 数据 集 研发 之 初 ， 
AI 技术 应 用 在 系统 收集 到 的 城市 大 数据 上 ， 可 以 20 min 锁 ”如何 对 1600 万 张 图 像 数 据 进 行 标注 成 为 了 关键 难点 。 在 当 
定 嫌犯 ， 滴 滴 出 行 通过 对 城市 大 数据 分 析 来 为 每 辆 车 规划 最 。 时 看 来 这 个 几乎 是 个 不 可 能 完成 的 任务 ， 团 队 创 始 人 李 飞 飞 
优 行车 路 线 ， 绥 解 交 通 拥堵 问题 ， 沃尔玛 通过 超市 顾客 的 选 偶然 接触 到 amazon 的 众 包 平台 Amazon Mechanical Turk, 通 
购 记 录 数 据 分 析 ， 为 商家 精准 投放 广告 。 这 些 数 据 收集 的 任 “过 众 包 平台 将 大 量 的 图 片 标 注 任务 分 配给 世界 上 任何 一 个 与 
务 大 部 分 都 可 以 使 用 机 器 自动 完成 , 但 是 在 图 像 类 别 标注 吕 ， 之 感 兴趣 的 人 ， 最 终 仍然 经 过 了 两 年 多 的 时 间 才 完成 了 这 个 
商品 优 劣 等 一 些 任 务 中 ， 机 器 常常 无 法 准确 地 对 这 些 数据 进 ” 标注 任务 。ImageNet 数据 集 的 成 功 也 同时 证 明了 利用 众 包 方 
行 处 理 。 近 年 来 ， 有 学 者 在 研究 中 发 现 数 据 的 有 效 性 与 数量 。 法 处 理 一 些 问题 是 非常 必要 与 高 效 的 。 然 而 众 包 方法 便利 地 
级 对 实验 效果 的 影响 甚至 高 于 对 算法 本 身 进 行 优化 局。 因此 ， 带 来 大 量 数据 的 同时 也 带 来 了 一 些 问题 。 通 常 很 多 标记 人 员 
如 何在 研究 的 相关 领域 找到 高 质量 与 高 数量 级 兼 具 的 数据 集 ， 并 不 是 相关 的 专业 人 士 ， 水 平 参差 不 齐 ， 每 个 人 给 出 的 数据 
成 为 了 众多 科研 工作 者 迫切 需要 解决 的 问题 。2009 年 普 林 斯 ” 标注 并 不 是 完全 正确 的 ， 有 些 把 对 象 标注 了 错误 的 标签 ， 有 
顿 大 学 李 飞 飞 团 队 推 出 了 一 个 ImageNet 的 图 像 数 据 集 办。 些 因 为 不 确定 而 没有 给 出 标签 。 这 些 缺 陷 导 致 最 终 得 到 的 众 
前 是 世界 上 最 大 的 图 像 识 别 数据 库 ， 经 过 近 十 年 的 发 展 ， 包 数 据 通常 含有 一 定 的 噪声 值 与 缺失 值 。 这 些 问题 在 数据 挖 
ImageNet 数据 集 已 经 对 计算 机 视觉 以 及 整个 机 器 学 习 领 域 掘 中 非常 常见 中， 因此 ， 如 何 针对 性 地 处 理 这 些 问 题 ， 成 为 
带 来 了 深远 的 影响 。 在 2010 一 2017 年 期 间 , 研究 人 员 已 经 将 ”能 和 否 高 效 利 用 众 包 数据 的 关键 。 
物体 分 类 的 准确 率 提高 到 了 97.3%， 超 过 了 人 类 分 辩 水 平 加 。 在 之 前 Zhang 等 人 提出 了 Efficient kNN Algorithm 
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Based on Graph Sparse Reconstruction 来 对 传统 的 KNN 算法 2 ”算法 描述 
做 了 改进 。 它 通过 4- 范 数 来 动态 的 为 不 同 的 样本 生成 不 同 人 
的 K 值 ， 以 此 来 使 算法 达到 很 好 的 性 能 。 但 是 这 种 算法 只 能 。 2.1 MV 方法 
适用 于 一 般 的 数据 集 ， 并 不 能 用 于 众 包 数 据 ， 而 且 它 对 数据 如 表 1 所 示 ， 可 以 把 它 看 做 一 个 众 包 数据 ， 其 中 ， 甲 、 
标记 的 缺失 很 敏感 。 此 外 ， 郝 建 相等 人 四 也 提出 了 一 种 模糊 。” 乙 、 丙 代表 标记 员 ，X1,X2,.…Xn 表示 第 一 个 样 例 到 第 n 个 
近邻 标签 传递 的 半 监督 分 类 算法 。 该 方法 虽然 能 对 没有 标签 样 例 。 表 中 的 工 数据 代表 标记 员 对 样 合 进行 的 标记 。 在 实际 


的 数据 进行 分 类 ， 但 是 它 主要 用 于 半 监 督学 习 ， 且 只 能 进行 工作 中 ， 众 包 数 据 难免 会 有 部 分 标记 缺失 。 同 时 ， 和 
单 标签 的 学 习 ， 对 于 众 包 数据 的 多 标签 无 法 进行 分 类 ， 因 此 员工 作 懈 仍 ， 或 专业 水 平 有 限 导 致 标 记 结 果 出 现 错误 。 这 些 
也 不 适用 于 众 包 数据 。 都 是 众 包 数据 中 存在 的 问题 
本 文 针对 众 包 数 据 中 出 现 的 这 些 问题 , 提出 了 加 权 K 近 表 1 众 包 数 据 

邻 投票 分 类 算法 。 具 体 地 ， 应 用 K 近邻 投票 分 类 方法 解决 数 Table 1 Crowdsourcing data 
据 标 签 缺失 的 情况 ， 同 时 通过 赋予 近邻 适当 的 权重 来 更 加 合 Xl 20 Xn 
理 地 对 算法 进行 改进 。 最 终 同时 结合 以 上 两 种 改进 方法 ， 提 甲 L11 Li Lln 
出 了 加 权 开 近邻 投票 分 类 算法 。 L21 L22 L2n 

区 丙 L31 L332 L3n 
| 为 了 从 众 包 数据 中 得 到 正确 的 标记 ， 最 经 典 的 
1.1 KNN MV(majority voting) 方 法 4 根据 少数 服从 多 数 的 原则 来 实现 。 


KNN 算法 指 的 是 K 最 近 (K-nearest neighbour) 算 法 中， 是 lL 体 如 式 (1) 所 示 。 


数据 挖 气 众 多 算法 中 最 为 经 典 的 算法 之 一 。 kNN 算法 的 主要 es 
思想 是 数据 集中 某 一 点 的 类 别 可 以 由 其 周围 的 k 个 已 被 正确 吕 

分 类 的 点 来 决定 ， 也 就 意味 着 数据 中 的 任意 一 点 与 其 靠近 的 NE 
点 具有 相同 的 类 则 。 具 体 地 ， 首 先 设 定 k 什 ， 然 请 通过 计算 。 其中。 xc- 可 eg ， 加 是 指标 记 员 的 个 数 ，* 是 
该 点 与 其 他 所 有 点 的 距离 ， 之 后 保留 距离 小 的 k 个 邻居 样本 en 标记 (是 一 个 集合 ， 里 面 的 标记 个 数 等 
点 ， 最 后 通过 计算 这 个 点 中 出 现 概率 最 大 的 类 别 ， 即 该 点 。 于 标记 员 的 个 数 ); 10 表示 : 若 ( 中 的 内 容 为 真 ， 则 返回 
的 预测 类 别 。 距 离 的 度量 方式 主要 包括 丙种 ， 一 种 是 曼哈顿 。 1， 否 则 返回 0; ! 是 标记 ;c 是 真正 的 类 别 ，Q-fL. oj 是 标 
距离 ， 另 一 种 是 欧 氏 距离 。 由 于 Knn 方法 判定 类 别 是 根据 其 。 签 集合 。 很 明显 ， 若 wc| 四 >05 ， 则 表示 根据 MV 方法 得 到 
周围 有 限 的 K 个 点 来 决定 的 ， 而 与 整体 类 别 的 关系 不 大 ,所 ”的 这 个 样 例 的 标记 是 正确 的 。 

以 该 方法 尤其 适合 处 理 样 本 类 别 重 登 较 多 数据 集 的 多 分 类 问 虽然 此 方法 能 达到 一 定 的 效果 ， 但 是 它 默认 的 每 个 标记 


题 。 很 多 学 者 在 knn 算法 基础 上 进行 了 很 多 改进 研究 。 为 了 员 的 知识 水 平 或 力 是 一 样 的 "”。 比如 表 1 中 ， 若 甲 为 本 科 
解决 KNN 算法 容易 受 K 值 的 影响 的 问题 , Zhang 等 人 om 提出 文凭 ， 且 能 力 很 强 ， 乙 为 高 中 文凭， 能 力 较 强 ， 丙 为 初中 文 
了 一 种 为 不 同 测试 数据 设 定 不 同 k 值 的 CM-Knn 算法 。 由 于 ”和 赁 ， 能 力 一 般 。 此 时 若 甲 标记 正确 ， 乙 两 两 人 标记 错误 ， 根 
KNN 依赖 样本 类 别 平 衡 ，Zhang00 提 出 了 一 种 结合 确定 性 因 据 MV 方法 ， 此 时 最 终 得 到 的 标记 是 错误 的 ps 。 此 外 ，MV 


素 的 ee 算法 。KNN 算法 因为 其 算法 思路 简单 ， 实 方法 只 根据 当前 样 例 的 标记 进行 投票 ， 它 忽略 了 邻居 样 例 的 
难度 低 ， 分 类 0 同时 适合 处 理 多 分 类 问题 而 在 数据 挖 信息 。 现 实 中 ， 众 包 数 据 还 会 出 现 有 的 样 例 比 较 难以 识别 ， 
气急 人 人、 导致 没有 标记 员 标 记 , 或 者 某 个 样 例 的 标记 全 部 缺失 ,此 时 ， 
1.2 ee 根据 MV 方法 的 原则 是 无 法 返回 一 个 明确 的 答案 的 。 

随机 森林 算法 是 一 种 基于 决策 树 改进 的 机 器 学 习 算 法 I。 2.2 W-Knv 方 法 
同时 决策 树 0 是 监督 学 习 领 域 中 一 个 非常 经 典 的 分 类 算法 。 针对 以 上 问题 ， 本 文 提 出 了 加 权 开 近邻 方法 (Weighted k 
与 传统 的 逻辑 回归 分 类 算法 不 同 ， 决 策 树 算法 是 一 个 树 型 模 nearest neighbor voting， 缩 写 为 W-Knv)， 如 式 〈2) 所 示 。 
型 〈 非 线性 模型 ) 。 传 统 的 逻辑 回归 算法 是 通过 将 所 有 特征 二 0) 
进行 加 权 处 理 得 到 一 个 值 ， 然 后 某 一 个 设 定 的 阔 值 将 样本 线 和 
性 划分 。 而 诀 策 树 通 过 生成 的 树 型 结构 ， 将 所 有 特征 分 开 处 攻 中 we|D= = jv(e [D+oe] wl 
理 ， 从 而 做 到 对 样本 更 加 精确 的 非 线 性 分 割 。 决 策 树 模型 中 四 i Z ”和 
根 节点 代表 最 主要 的 特征 ,每 个 子 节点 代表 特定 的 区 分 特征 ， HENkw 。 
最 下 层 的 叶 节点 则 代表 样本 的 最 终 类 别 。 其 主旨 思想 是 将 特 本 文 用 向 量 4 表示 样 例 义 邻居 的 标记 的 权重 ,由 于 越 近 ， 
征 差别 大 的 样本 尽 可 能 地 分 开 。 随 机 森林 算法 通过 将 集成 学 说 明 样 例 的 关系 越 紧密 , 所 以 初始 化 =[K,k-Lk-2.……]，& 
习 方 法 应 用 在 决策 树 ， 将 多 个 决策 树 的 投票 结果 组 成 一 个 强 表示 向 量 4 内 元 素 的 均值 。 仔 细 观 察 上 式 ， 随 着 |s,| 的 增 大 ， 
分 器 , 以 此 来 提高 了 准确 率 。 随 机 森林 算法 有 如 下 几 种 特点 : & 对 W-Knv 算法 的 影响 就 越 小 。 当 a 内 元 素 的 值 全 部 为 0， 


随机 抽样 训练 集 ， 使 得 每 棵 树 接受 不 相同 的 训练 样本 ， 从 而 ”也 就 表示 样 例 的 近邻 对 结果 基本 没有 影响 。 此 时 ， 本 文 提 出 

高 了 模型 的 泛 化 性 ;进行 有 放 回 的 抽样 方式 ， 使 得 每 棵 树 的 W-Knv 方法 就 与 MV 方法 完全 一 致 。 随 着 # 值 的 增 大 

的 抽取 训练 样本 的 方式 既 有 随机 ， 同 时 也 有 相关 性 ， 从 而 能 “邻居 标记 的 重要 性 也 随 着 增 大 。 同 时 ， 若 样 例 中 出 现 标记 缺 

够 获取 到 内 部 生成 误差 的 一 种 无 偏 估计 。 由 于 随机 森林 算法 失 或 标记 不 平衡 时 ,本文 提出 的 W-Knv 方法 可 以 根据 样 例 邻 

有 高 准确 率 、 适 合 处 理 高 维 数据 、 对 缺失 值 不 敏感 等 特点 。 居 的 标记 科学 地 返回 一 个 明确 的 答案 

被 广泛 应 用 在 推荐 系统 、 预 测 模型 等 方面 。 本 文 提出 的 W-Knv 方法 主要 有 以 下 优点 : 
a) 由 于 现实 生活 中 的 众 包 数据 是 有 标记 人 缺失、 噪声 等 影 

响 的 。K 近邻 投票 分 类 方法 通过 考虑 样 例 邻 居 之 间 的 标记 ， 
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可 以 减轻 一 部 分 这 方面 
记 ， 都 可 以 给 出 一 个 


的 影响 ， 无 论 标 记 


明确 的 答案 。 
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是 否 缺失 ， 或 无 标 


b) 传 统 的 多 数 投票 分 类 方法 比较 适合 


情况 ， 但 实际 中 标记 员 的 知识 水 平 参差 不 
样 例 的 标记 个 数 不 均 衡 ， 从 而 使 传统 的 投票 方法 获取 的 样 例 


标记 不 够 多 ,产生 准确 
方法 很 容易 获取 足够 多 的 标记 。 


类 


车 
局 


样 例 标记 很 均衡 的 
齐 ， 所 以 就 会 造成 


较 低 的 答案 。 而 K 近邻 投票 分 类 


关系 的 ， 吉本 同一 
分 类 方法 只 是 根据 
的 关系 。 玉 近邻 综 


c) 在 实际 中 ， 样 例 之 间 通 常 是 有 一 定 

的 样 例 很 可 能 是 聚集 在 一 起 。 多 数 投票 

样 例 的 标记 来 给 出 答案 ， 忽 略 了 样 例 之 间 

了 样 例 邻居 的 标记 信息 ， 从 而 可 以 给 出 
dj) 通过 调节 向 量 4 的 值 , 可 


这 样 可 以 排除 一 些 错误 标记 的 干扰 ， 
邻 投票 分 类 方法 的 性 能 更 好 。 

3 ”实验 结果 与 分 析 

3.1 实验 数据 集 和 参数 设置 


以 控制 样 例 邻居 标记 的 权重 


更 准确 的 答案 。 


从 而 使 本 文 提出 的 K 近 


在 本 文 实验 中 采用 CCUDS、CNAE、 Drift、 Ecoli、 Yale、 
Chess、Movements、Soybean 这 八 个 数据 


居 集 来 验证 提出 的 


等 : 基于 近邻 的 众 包 数据 分 类 算法 


本 WwW-Knv 算法。 这 些 数据 集 均 来 自 UCI 数据 集 "9。 数据 集 的 详 
二。 细 信 息 如 表 2 所 示 。 

CN 0 

(ey) 表 数据 集 详细 信息 

qr Table 2 Data set details 

© 数据 集 样本 数 属性 数 类 数 

©O CCUDS 1994 101 10 

=- CNAE 1080 856 9 

© Drift 1244 129 6 

O) Ecoli 336 343 8 

© Yale 165 1024 15 

人 Chess 3196 36 2 

四 Movements 360 90 15 

We 

2 Soybean 307 35 19 

>< 为 了 从 各 个 方面 验证 本 文 提出 的 W-KNV 算法 的 性 能 ， 

人 设置 如 下 参数 : 

(全 a Ne 
二 a) 平均 标记 数 区 | 。 它 的 大 小 影响 着 总 标记 数 。 由 于 实 
OO 际 中 每 个 样 例 的 标记 数 并 不 都 是 一 样 的 (可 能 出 现 无 标记 或 


标 
记 


每 


™ 


记 缺 失 的 情况 ) ， 设 置 它 为 3 或 5， 以 此 来 模拟 实际 


的 标 


b) 贝塔 分 布 的 参数 con。 本 文通 过 |s|=Px|S|x 才 来 得 到 
个 样 例 的 标记 数 , 这 个 式 子 决定 了 构建 每 个 样 例 的 标记 数 。 


中 : 


S| 代表 茶 个 样 例 的 标记 数 ; 


4~ Blcon,con) ， 这 样 


每 个 


样 例 的 标记 数 就 可 以 取 到 (0……,2|5,) ， 从 而 使 得 每 个 样 例 的 


标记 数 不 固 定 ， 可 以 更 加 真实 地 模拟 真实 众 包 数据 。 
FE 参数 rel。 这 个 参数 表示 标记 员 标 记 正 确 一 个 
由 于 实际 中 标记 员 标 错 的 概率 并 不 是 很 大 ， 所 


样 


c) 可 靠 怕 
网 的 概率 。 


a 


以 本 文 设置 它 的 值 范围 为 rel e(0.5,…*…D 。 


杠 
女 


利 


接 下 来 ， 首 先 要 


a) 本 文 首先 通过 


分 


后 得 到 


< 


阵 如 下 所 示 : 


巴 这 些 数据 集 进行 处 理 来 生成 本 文 所 需 
的 标记 ， 即 众 包 数据 na。 人 工 生成 众 包 数据 的 
下 : 


\ 体 过 程 如 


随机 森林 算法 来 对 数据 进行 分 类 , 然后 
的 预测 标签 和 数据 本 身 的 
个 混 清和 矩阵 M。M 拢 


实 标签 来 生成 一 
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mm m2 ”Me 

no Ny “” 7112， 
M = 

Mm M2 ”ec 


其 中 : M e R… ,cc 代表 数据 的 类 别 数 。 本文 用 Mij 表示 矩阵 M 


中 的 元 素 。 Mj; = pr( 标 记 员 给 的 标记 是 j| 该 样 例 的 真实 标签 是 i) 。 


b) M 矩阵 构建 完成 后 ， 再 根据 如 下 规则 构建 R 矩阵 ，R 
和 矩阵 的 大 小 和 M 矩阵 是 相同 的 : (9) 令 R 矩阵 的 主 对 角 元 素 
R=rel ;(b) 设 置 R 矩阵 的 其 他 元 素 值 为 
. — if M.=0 except for M.,. 
i 二 otherwise 


网 


上 M. 代表 M 和 抑 阵 的 第 c 行 ; 0 代表 全 为 零 ，M.。 
民 表 对 角 线 元 素 。 

R 矩阵 构建 好 了 之 后 ， 开 始 构建 众 包 数据 的 标记 。 当 给 
定 一 个 样 例 之 后 ， 若 该 样 例 属 于 第 c 类 ， 就 从 R 和 矩阵 的 第 c 
行 中 抽取 S| 次 ,把 抽取 的 元 素 作 为 该 样 例 的 标记 集合 。 这 样 
对 每 个 样 例 依 次 进行 ， 就 生成 众 包 数 据 了 。 
以 上 的 种 种 做 法 ， 都 使 得 本 文生 成 的 众 包 数据 更 加 贴近 
于 现实 生活 中 的 真实 数据 。 
3.2 ”实验 结果 与 分 析 
接 下 来 本 文 从 各 个 方面 来 测试 本 文 算 法 的 性 能 。 本 章 所 
有 实验 都 是 在 Windows 7 环境 下 的 MATLAB 2014a 平 台 上 进 
行 的 。 


1 
CC ; 


—a— CCUDS 
—e— Chess 
一 9 一 CNAE 
一 7 一 Drift 
一 一 Ecoli 
一 一 Madelon 
一 上 一 Movements 
一 人 一 Yale 


acc(%) 


¥ 2 3 4 Ej 6 EE 8 


妈 1 W-Knv 取 不 同 K 值 的 准确 率 
Fig. 1 W-Knyv takes the accuracy of different K values 
如 图 1 所 示 , 在 参数 rel=0.6, con=1, a=[5,4,3,2,1] , &=3， 


|5.|=5 的 设置 下 ，W-Knv 方法 在 K 取 不 同 值 的 情况 下 的 准确 
率 。 可 以 看 出 ， 当 k>5 时 ，W-Knv 方法 的 准确 率 变化 不 大 。 
羽 此 ， 在 之 后 的 实验 中 设 定 K 值 为 S。 为 了 测试 参数 con 对 


算法 MV 和 W-Knv 的 影响 ,固定 其 他 参数 值 为 :K=5, rel=0.6， 
Qo=[5,4,3,2,1], &@=3, |5.|=3or5, 


一 

已 

Sy 

— 

名 0. 

名 

my a “9 MV jj 3 
a0 —e—W-Knv,j3j=3. 
| “OMVj3j5 | 

全 W-Knvjgj=5 


30 
con 
图 2 数据 集 OCCUDS 
Fig.2 Data set OCCUDS 


10 E 
2^-4 2^-3 2^-2 2^-1 2^1 2^2 2^3 2^4 


录用 定稿 


一 、 

IS 

= 

名 a ,2 

® ~“ MVJj®j=3 
70 一 e-W-Knvjgj=3| 
吕 wi MVjgj- 5 

-人 W-Knvjgj=5 

60 


CO 
图 3 数据 集 Chess 


Fig.3 Data set Chess 


“MV Jj3j=3 
一 e-W-Knvjgj=3 | 
人 MVjgj=5 

一 W-Knvjgj=5 


30°- r r 
2%4 2%3 2%2 21 2%0 21 22 23 2^4 


图 4 数据 集 Ecoli 


Fig.4 Data set Ecoli 


A 
© 
人 
© 0 sl MVjgj= 3 
—e—W-Knv,j®j=3 
7S|- sr MVjgj= 5 
一 W-Knvjgj=5 


en 了 23 2 2 2x0 2^1 2^2 2 2^4 
con 

图 6 数据 集 Madelon 

Fig.6 Data set Madelon 


S| Pe 
lS 70L ee 仿 Be i 由 
中 ee 
由 回 … © 
| 尖 7 加 
A “MV,j3j=3 
. a 
—e—W-Knv,j®j=3 
40|- -6-.MVjgP5 
W-Knvjgj=5 
30 E 


2v-4 23 22 21 320 21 22 23 2^4 


图 8 数据 集 CNAE 
Fig.8 Data set CNAE 


洪 


于 区 近邻 的 众 包 数据 分 类 算法 


一 
本 十 | 


| | I 其 1 
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一 
IS 
Bd 
YY : 
泪 : 
® of Ss MVjgj=3 | 
—e—W-Knv,j®j=3 
0 so MVjgj= 5 
全 W-kKnvjg=5| 
纪 - 2^-3 2^-2 2^-1 2^0 2^1 2^2 2^3 2^4 
con 
妈 5 数据 集 Drift 
Fig.5 Data set Drift 
一 
IS 
Bd 
可 te 
® 40|- 加 ek MVjgj=3 
ao 日 ” —e—W-Knv,j8j=3. 
ee 号 人 MVjgj= 5 
200 上 
一 W-Knvjg=5| 
D4 2^-3 2^-2 2^-1 2^0 2^1 2^2 313 2“4 
con 
图 7 数据 集 Movements 
Fig.7 Dataset Movements 
一 
IS 
Bd 
名 
BD 9 
0 i oe “MVj8j=3 | 
a9 a —e—W-Knv,j3j=3. 
a 日 ji MV3j= 5 
2007 上 
一 -W-Knvjgj=5 


9 数据 集 Yale 


Fig.9 Data set Yale 


参数 con 的 值 取 很 小 的 8 
零 。 而 当 参 数 的 值 很 大 上 
于 213| 。 图 2~9 展示 


于 本 章 设置 贝塔 分 布 的 两 个 参数 是 相同 的 值 ， 所 以 当 


才 候 ， 每 个 样 例 的 标记 数 就 会 趋向 于 
的 时 候 ， 每 个 样 例 的 标记 数 就 会 趋向 
MYV 算法 和 W-Knrv 算法 在 八 个 数据 


集 上 的 准确 率 。 可 以 发 现 ， 随 着 参数 con 值 的 增加 ， 准 确 率 


都 是 递增 的 ， 当 con 值 较 小 时 ， 标 记 数 比 较 少 ， 此 时 MV 算 
法 通常 不 能 给 出 较为 准确 的 答案 ， 受 影响 比较 大 。 同 时 本 章 
设置 54=3or5， 这 样 也 间 
图 可 以 看 出 ， 随 着 标记 数 的 变化 ，W-Knv 算法 的 性 能 都 比 


I 


接 调 节 了 标记 的 个 数 。 通 过 这 八 个 


MV 算法 要 好 。 此 外 ,通过 改变 参数 rel 的 值 ， 本 文 也 做 了 一 


些 实验 。 


录用 定稿 李 佳 烨 ， 等 : 


一 、 
[Sy 
— 
DD 40- … 晶 "MYVrel=0.5 
® | “0©.… MV,rel=0.6 
“0% MV,rel=0.7 
20 上 - 一 百 一 W-Knv,rel=0.5 上- 


—e— W-Knv,rel=0.6 | 
一 9 一 W-Knvrel=0.7 


试验 次 数 


图 10 ”数据 外 


9 10 


OCCUDS 


ler 


.10 Data set OCCUDS 
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“MV,rel=0.7 
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一 9 W-Knv,rel=0.7 
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、 Y 
试验 次 数 
图 11 数据 集 Ecoli 
Fig. 11 Data set Ecoli 
100 
一 
全 
— 
加 
人 9 70- “日 … MV,rel=0.5 
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试验 次 数 


12 数据 集 Chess 
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Fig. 12 Data set Chess 
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图 13 数据 集 Madelon 

Fig. 13 Data set Madelon 
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| [a MVrel=05 | 
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图 14 数据 集 CNAE 
Fig. 14 Data set CNAE 
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图 15 数据 集 Movements 


Fig. 15 Dataset movements 
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70 上- 
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16 数据 集 Drift 

Fig. 16 Dataset drift 
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图 17 数据 集 Yale 

Fig. 17 Data set Yale 


李 佳 烨 ， 等 : 


如 图 10~17 所 示 , 在 参数 K=5,con=1, a =[5,4,3,2,1] , &=3 
5.|=5 的 设置 下 ,本文 在 八 个 数据 集 上 分 别 进行 了 10 次 实验 ， 


来 验证 不 同 的 rel 值 对 算法 的 影响 。 
通过 对 实验 结果 的 分 析 ， 发 现 准 确 率 并 没有 随 着 rel 值 
的 增 大 而 提高 。 但 大 多 数 情 况 下 , 本 文 提出 的 W-Knv 算法 准 
确 率 都 比 MV 算法 要 好 。 通 过 调节 参数 rel 的 值 来 调整 标记 
员 的 水 平 ， 以 此 来 提升 算法 的 性 能 。 

从 (1) 式 和 (2) 中 可 以 看 出 , 无 论 是 传统 的 MV 算法 , 还 是 
本 文 提出 的 W-Knv 算法 ， 时 间 复 杂 度 都 主要 与 上 有 关 。 
于 都 是 线性 的 计算 ， 所 以 它们 两 种 算法 的 时 间 复 杂 度 都 是 
O(n) ,在 实际 情况 中 0 出 的 W-Knv 算法 需要 计算 近邻 ， 
所 以 计算 次 数 会 多 一 点 。 但 只 是 多 了 一 些 线性 的 计算 ， 总 体 
的 算法 时 间 复 杂 度 还 是 O(n)。 

当 本 文 把 式 (2)〉 中 向 量 “ 里 的 元 素 的 值 全 设置 为 k 时 ， 
比 时 表示 所 有 近邻 的 权重 是 一 样 的 , 即 把 传统 的 K 近邻 算法 
思想 运用 到 众 包 数据 中 。 很 明显 ， 这 样 的 效果 没有 本 文 的 加 
权 K 近邻 更 符合 常理 。 在 性 能 上 ,本文 的 加 权 KK 近邻 可 以 通 
过 调节 向 量 4 的 值 来 调节 权重 ,传统 的 K 近邻 不 可 以 。 可 以 
说 , 本文 在 众 包 数 据 上 的 加 权 K 近邻 标签 聚合 算法 是 传统 开 
近邻 算法 思想 的 一 种 改进 运用 。 
综 上 所 述 , 本 文 提出 的 W-Knv 算法 之 所 以 取得 了 较 好 的 
性 能 ， 主 要 有 以 下 三 个 原因 : a) 在 部 分 样 例 标 记 缺 失 或 较 少 
的 时 候 ， 也 能 返回 一 个 较 好 的 答案 ， 适 用 性 更 强 ，b) 不 仅 考 
虑 了 样 例 的 标记 ， 还 考虑 了 样 例 之 间 的 关系 ， 以 此 来 得 到 更 
加 精确 的 答案 ，c) 通 过 给 样 例 的 近邻 来 设置 权重 ， 可 以 有 效 
地 去 除 不 准确 的 标记 ， 使 算法 性 能 


4 ”结束 语 


本 文通 过 考虑 样 例 的 K 近邻 标记 , 提出 了 一 种 在 众 包 学 

习 中 的 加 权 K 近邻 投票 分 类 算法 。 即 通过 KK 近邻 来 找 出 样 例 
邻居， 根据 距离 由 近 到 远 对 邻居 样 例 所 对 应 的 标记 设置 权 
重 ， 越 近 的 权重 越 大 。 以 此 来 使 算法 的 性 能 更 好 。 该 算法 保 
留 了 多 数 投票 的 简单 性 ， 在 一 定 程度 上 可 以 代替 多 数 投票 分 


| 


是 


类 法 。 经 实验 结果 证 实 ， 本 文 算法 取得 了 很 好 的 效果 。 在 今 
后 的 工作 中 ， 本 文 尝试 通过 不 同 的 分 类 算法 和 概率 估计 来 进 
行 改善 。 
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